Cours 5 : Utilisation d’informations auxiliaires par stratification

Paul Géhin

27 mars 2026

Constat sur l’utilisation d’informations auxiliaires

On distingue deux types d’informations :
- \(\{y_k\}\), les variables d’intérêt : elles sont connues uniquement sur l’échantillon \(s\).
- \(\{\textbf{x}_k\}\), les variables auxiliaires : elles sont connues pour tous les individus de la population.

Le choix d’un plan de sondage sans utilisation d’informations auxiliaires peut conduire à des estimations peu efficaces :
- La variance de l’estimateur du total d’Horvitz-Thompson peut être grande.

Lorsque les probabilités d’inclusion sont liées à la variable d’intérêt alors la variance de l’estimateur du total d’Horvitz-Thompson est plus faible (l’intuition est donné dans le cas d’un plan de taille fixe par la formule de Sen-Yates-Grundy).

Comment incorporer l’information auxiliaire ?
- En amont du tirage : stratification, tirage équilibré, …
- En aval du tirage : estimation assistée par le modèle, calage …

Stratification

La stratification consiste à découper la population en sous-populations et de tirer des sous-échantillons dans chaque sous-populations.

Les sous-populations sont appelées strates.

Le plan de sondage sera différent d’une strate à l’autre : pour autant, généralement, ils sont de la même famille de plan de sondage mais avec des paramètres différents.

Deux questions se posent :
- Comment constituer les strates ?
- Comment choisir les paramètres dans les strates ?

Stratification (2)

Soit \(\mathcal{U} = \{1, ..., N\}\) la population de taille \(N\).

On suppose que la population peut être décomposé en \(H\) strates disjointes \(\{U_h\}_{h \in [H]}\) (il s’agit d’une partition) :
- Pour tout \(h\) et \(h'\) distincts, \(U_h \cap U_{h'} = \emptyset\) (autrement dit, un individu ne peut être dans deux strates différentes).
- \(\displaystyle \bigcup_{h \in [H]} U_h\) (un individu est dans au moins une strate).

Exemple de stratification :
- Décomposition par tranche d’âge quinquénnale.
- Décomposition selon la région.

La création des strates se base sur de l’information auxiliaire.

Illustration des strates

Population \(\mathcal{U}\) de taille 12

Illustration des strates

Stratification par âge

Stratification (3)

Un plan de sondage \(p\) est dit stratifié lorsque :
- Dans chaque strate \(h\), un échantillon \(s_h \subset \mathcal{U}_h\) est tiré à l’aide d’un plan de sondage \(p_h\).
- On suppose de plus que les tirages sont réalisés indépendants d’une strate à l’autre (conditionnellement à l’allocation - voir plus loin).
- L’échantillon \(s\) issu de \(p\) est l’union des sous-échantillons : \(\displaystyle s = \cup_{h \in [H]} s_h\).

Tirage stratifié

Tirage dans chaque strate

Stratification (4)

Le total de la variable d’intérêt \(t_y\) peut être réécrit la somme des totaux dans chaque strate : \[t_y = \sum_{k \in \mathcal{U}} y_k = \sum_{h \in [H]} \underbrace{\sum_{k \in \mathcal{U}_h} y_{h_k}}_{:= t_{y,h}} = \sum_{h \in [H]} t_{y,h}\] où \(y_{hk}\) désigne la valeur de la variable d’intérêt pour le \(k-\)ième individu de la strate \(h\).

L’estimateur du total de Horvitz-Thompson peut se réécrire : \[ \hat{t}_{y,\text{HT}} = \sum_{k \in s} \frac{y_k}{\pi_k} = \sum_{h \in [H]} \sum_{k \in s_h} \frac{y_{h_k}}{\pi_{h_k}} = \sum_{h \in [H]} \hat{t}_{y,h, \text{HT}}\].
Attention : ne pas confondre \(\pi_{h_k}\) (probabilité d’inclusion d’ordre 1 de l’individu \(h_k\)) et \(\pi_{hk}\) (probabilité d’inclusion d’ordre 2 des individus \(h\) et \(k\)).

Biais, variance et stratification

Il n’y a pas de points spécifiques pour la biais de l’estimateur \(\hat{t}_{y,\text{HT}}\) lorsque le plan de sondage est stratifié \(\to\) si pour tout \(k \in \mathcal{U}\), \(\pi_k > 0\) alors l’estimateur \(\hat{t}_{y,\text{HT}}\) est sans biais pour \(t_y\).

Par contre, il y a des changements pour le calcul de la variance : \[\mathbb{V}(\hat{t}_{y,\text{HT}}) = \mathbb{V}(\sum_{h \in [H]} \hat{t}_{y,h, \text{HT}}) = \sum_{h \in [H]} \mathbb{V}(\hat{t}_{y,h, \text{HT}}) \text{ par indépendance des tirages}\]

En choisissant correctement les strates, nous allons pouvoir diminuer la variance de l’estimateur de Horvitz-Thompson (par rapport à un plan de sondage non stratifié).

Cas du SRS stratifié

Supposons que dans chaque strate \(h \in [H]\), un échantillon \(s_h\) est tiré à l’aide d’un SRS de paramètre \(n_h\) (parmi \(N_H\)).

La variance de l’estimateur du total sur la strate \(h\) d’Horvitz-Thompson \(\hat{t}_{y,h,\text{HT}}\) peut s’écrire : \[\mathbb{V}(\hat{t}_{y,h,\text{HT}}) = \frac{N_h^2}{n_h} \left( 1 - \frac{n_h}{N_h} \right) S^2_{y,h} \text{ où } S^2_{y,h} = \sum_{k \in h} \left(y_{h_k} - \bar{y}_h \right)^2\]

et pour toute strate \(h \in [H]\), \(\bar{y}_h = \sum_{k \in h} y_{h_k}\).

Il en vient que \[\mathbb{V}(\hat{t}_{y,\text{HT}}) = \sum_{h \in [H]} \mathbb{V}(\hat{t}_{y,h, \text{HT}}) = \sum_{h \in [H]} \frac{N_h^2}{n_h} \left( 1 - \frac{n_h}{N_h} \right) S^2_{y,h}\]

Rappelons que dans le cas d’un SRS non stratifié de \(n = n_1 + ... + n_h\) parmi \(N = N_1 + ... + N_h\) : \[\mathbb{V}_{\text{non strat}}(\hat{t}_{y,\text{HT}}) = \frac{N^2}{n} \left(1 - \frac{n}{N} \right) S_y^2\]

Cas du SRS stratifié

Supposons, de plus que les fractions de sondage des strates soient les mêmes. Autrement dit, pour tout \(h \in [H],\) : \[\frac{n_h}{N_h} = \frac{n}{N}\]
- On dira que l’allocation est proportionnelle (voir la suite du cours).

Il en vient que \[\mathbb{V}(\hat{t}_{y,\text{HT}}) = \sum_{h \in [H]} \mathbb{V}(\hat{t}_{y,h, \text{HT}}) = \sum_{h \in [H]} \frac{N_h^2}{n_h} \left( 1 - \frac{n_h}{N_h} \right) S^2_{y,h} = \frac{N}{n} \left( 1 - \frac{n}{N} \right) \sum_{h \in [H]} N_h S^2_{y,h}\]

Dispersion intra et inter

\[\begin{align} S_y^2 &= \sum_{k \in \mathcal{U}} \left(y_k - \bar{y} \right)^2 \\ &= \sum_{h \in [H]} \frac{N_h - 1}{N - 1} S^2_{y,h} + \sum_{h \in [H]} \frac{N_h}{N - 1} \left(\bar{y}_h - \bar{y} \right)^2 \\ &\approx \color{red}{\sum_{h \in [H]} \frac{N_h}{N} S^2_{y,h}} + \color{blue}{\sum_{h \in [H]} \frac{N_h}{N - 1} \left(\bar{y}_h - \bar{y} \right)^2} \text{ pour } N_h \text{ assez grand} \end{align}\]

\(S^2_{y,\text{intra}} = \color{red}{\displaystyle \sum_{h \in [H]} \frac{N_h}{N} S^2_{y,h}}\) est la dispersion intra-strate :
- Cette dispersion sera nulle si tous les individus au sein d’une strate ont les mêmes valeurs.
\(S^2_{y,\text{inter}} = \color{blue}{\displaystyle \sum_{h \in [H]} \frac{N_h}{N - 1} \left(\bar{y}_h - \bar{y} \right)^2}\) est la dispersion inter-strate :
- Cette dispersion sera nulle si les valeurs moyennes au sein des strates sont les mêmes.
D’après l’équation précedénte \(S^2_{y,\text{intra}} \lessapprox S^2_y\)

Illustration dispersion intra et inter

Dispersion intra et inter

Comparaison de l’estimateur stratifié et l’estimateur classique

Nous savons que :

\(S^2_{y,\text{intra}} \lessapprox S^2_y\)
\(\mathbb{V}(\hat{t}_{y,\text{HT}}) = \frac{N}{n} \left( 1 - \frac{n}{N} \right) \sum_{h \in [H]} N_h S^2_{y,h}\) sous l’hypothèse qu’un SRS est réalisé dans chaque strate \(h\) et pour tout \(h\), \(\frac{n_h}{N_h} = \frac{n}{N}\).
\(\mathbb{V}_{\text{non strat}}(\hat{t}_{y,\text{HT}}) = \frac{N^2}{n} \left(1 - \frac{n}{N} \right) S_y^2\) sous l’hypothèse d’un SRS non stratifié de taille \(n = n_1 + ... + n_H\) parmi \(N_1 + ... + N_H\).

Nous pouvons conclure que : \[\mathbb{V}(\hat{t}_{y,\text{HT}}) \lessapprox \mathbb{V}_{\text{non strat}}(\hat{t}_{y,\text{HT}})\]

L’estimateur de Horvitz-Thompson sous un SRS stratifié a une variance (généralement) plus faible qu’un estimateur de Horvitz-Thompson du total sous un SRS sans stratification.
La diminution de variance sera d’autant plus important que la dispersion intra est faible :
- Autrement dit, si les individus au sein d’un strate ont les mêmes valeurs pour la variable d’intérêt.

Allocation

Le plan stratifié consiste donc à tirer des sous échantillons \(s_h\) dans chaque strate \(h \in [H]\) selon un plan de sondage \(p_h\)
Généralement, les plans de sondage sont de la même famille : SRS … On considère dans la suite des plans à taille fixe pour les plans \(\{p_h\}_{h \in [H]}\).
Il faut donc définir la taille \(n_h\) de chaque échantillon \(s_h\) avant le tirage.
Le vecteur \((n_1, ..., n_H)\) s’appelle l’allocation.
Comment choisir l’allocation ?
Dans ce cours, deux approches :
- Allocation proportionnelle.
- Allocation optimale (ou de Neyman).

Allocation proportionnelle

Dans chaque strate, l’échantillon est tiré de manière à avoir la même fraction de sondage (= rapport entre la taille de l’échantillon et la taille de la population).
Autrement dit, pour toute strate \(h \in [H]\), \(\frac{n_h}{N_h} = \frac{n}{N}\).
Avec une allocation proportionnelle, chaque individu a donc le même poids.
Intuitivement, l’allocation proportionnelle assure que chaque strate est représentée de la même manière dans l’échantillon.

Allocation optimale

L’allocation optimale se base sur une information auxiliaire scalaire \(\{x_k\}_{k \in \mathcal{U}}\) disponible sur tous les individus de la population \(\mathcal{U}\).
Il s’agit de considérer l’allocation qui minimise la variance de l’estimateur d’Horvitz-Thompson sous un SRS stratifié
- Cette variance est calculable car l’information auxiliaire est disponible sur \(\mathcal{U}\).
Plus formellement, l’allocation optimale est solution du problème d’optimisation :

\[(n_1^*, ..., n_H^*) = \underset{(n_1, ..., n_H) \in \mathbb{N}^H}{\mathrm{argmin}} \sum_{h \in H} \frac{N_h^2}{n_h} \left( 1 - \frac{n_h}{N_h} \right) S^2_{x,h} \text{sous contrainte que} \sum_{h \in [H]} n_h = n\]

L’allocation optimale est donc définie par :

\[(n_1, ..., n_H) = (\frac{n N_1 S_{x,1}}{\sum_{h} N_h S_{x,h}^2},...,\frac{n N_H S_{x,H}}{\sum_{h} N_h S_{x,h}^2})\]

On tirera un échantillon plus grand dans les strates où les individus ont des comportements différents ou dans les plus grandes strates.

Exemple d’allocation optimale

Supposons que nous voulions déterminer l’allocation optimale basée sur une variable \(x\) dont nous connaissons pour chaque strate \(h \in H\), la dispersion de \(x\) au sein de la strate \(S_x^2 = \frac{1}{n_h - 1} \sum_{k \in h} \left(y_{n_h} - \bar{y}_h \right)^2\).
La taille d’échantillon totale souhaité est de \(n = 20\).
Ces (racines de) dispersions sont données dans le tableau ci-après :

Strate \(h\)	1	2	3
\(N_h\)	10	20	20
\(S_{x,h}\)	100	200	250

On obtient ainsi : \(\sum_{h \in [H]} N_h S_{x,h} = 10 000\)
D’où l’allocation optimale \((n_1, n_2, n_3) = (2,8,10)\).

Ajustement de l’allocation optimale

L’allocation optimale est donc définie par :

\[(n_1, ..., n_H) = (\frac{n N_1 S_{x,1}}{\sum_{h} N_h S_{x,h}^2},...,\frac{n N_H S_{x,H}}{\sum_{h} N_h S_{x,h}^2})\]

Dans le programme d’optimisation, aucune contrainte n’est imposée entre \(n_h\) et \(N_h\) : il se peut que \(n_h > N_h\) :
- Par exemple, quand la variable d’intérêt \(\{y_k \}_{k \in \mathcal{U}}\) est très dispersée dans la strate.
Dans ce cas, on réitère le calcule de l’algorithme, en retirant la strate concernée.

Exemple avec ajustement

Supposons que nous voulions déterminer l’allocation optimale basée sur une variable \(x\) dont nous connaissons pour chaque strate \(h \in H\), la dispersion de \(x\) au sein de la strate \(S_x^2 = \frac{1}{n_h - 1} \sum_{k \in h} \left(y_{n_h} - \bar{y}_h \right)^2\).
La taille d’échantillon totale souhaité est de \(n = 60\).
Ces (racines de) dispersions sont données dans le tableau ci-après :

Strate \(h\)	1	2	3	4	5
\(N\)	10	20	20	10	20
\(S_x\)	100	200	250	500	250
Allocation	3	12	15	15	15

L’allocation optimale ici implique de tirer un échantillon de taille \(15\) dans la strate 4 constituée de 10 individus.

On tire tous les individus de la strate 4 dans l’échantillon et on réitère le processus avec les individus des autres strates et \(n = 60 - N_3 = 50\).

Strate \(h\)	1	2	3	5
\(N\)	10	20	20	20
\(S_x\)	100	200	250	250
Allocation	3	12	15	15

L’allocation optimale basée sur la variable \(x\) est donnée par \((3.3,13.3,16.7,10,16.7)\). Cette allocation devra être arrondie afin d’être utilisable donnant ainsi l’allocation \((3,13,17,10,17)\).

Remarque sur l’allocation optimale

Il convient de choisir une variable \(x\) très correlée positivement à la variable d’intérêt \(y\).
Une allocation optimale basée sur une variable auxilaire \(x\) sera peut être avantageuse pour l’estimation d’une variable d’intérêt mais néfaste pour une autre.
L’allocation optimale ne permet de prendre en compte qu’une seule variable auxiliaire scalaire : il existe cependant d’autres méthodes permettant de calculer des allocations en fonction de plusieurs variables auxiliaires

Exemple d’application

Dans le TP 1, nous avons voulu estimer le nombre de boulangeries dans le Nord en réalisant un sondage.

Un échantillon de communes a été tiré avec deux plans de sondage donnant des résultats très différents :

le SRS dans la population sans prise en compte d’informations auxiliaires était très inefficace.
le tirage poissonien avec des probabilités d’inclusion proportionnelles à la taille était efficace.

Quid si on utilise un SRS stratifié à la place d’un SRS simple ?

Pour rappel :

réalisation de l’estimateur d’Horvitz-Thompson du total : 2796.567 boulangeries.
réalisation de l’estimation de la variance par l’estimateur de SYG : 1 992 178 boulangeries\(^2\).
réalisation d’un intervalle de confiance asymptotique au niveau 90 % : [474;5118].

Exemple d’application

Utilisation d’informations auxiliaires \(\to\) le nombre d’habitants dans la commune.
Comment utiliser cette information auxiliaire pour créer un plan stratifié ?
- Création de strates basée sur le nombre de communes : cinq classes basées sur les quantiles.
Allocation proportionnelle.

On obtient :

une réalisation de l’estimateur d’Horvitz-Thompson du total : 1655.583 boulangeries.
une réalisation de l’estimation de la variance par l’estimateur de SYG : 549 266 boulangeries\(^2\).
une réalisation d’un intervalle de confiance asymptotique au niveau 90 % : [436;2874].

Ce qu’il faut retenir

La stratification permet d’incorporer de l’information auxiliaire au moment de la construction du plan de sondage.
Un plan stratifié est un plan consistant en des tirages indépendants au sein de chaque strate.
Lorsque les tirages sont de taille fixe dans chaque strate, la taille des échantillons dans chaque strate est appelé allocation.
Nous avons vu deux approches pour calculer les allocations :
- proportionnelle.
- optimale.